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摘 要 : 小 样本 关系 抽取 任务 是 自然 语言 处 理 中 的 热点 问题 ， 引 在 使 用 低 成 本 的 标注 数据 训练 关系 抽取 模型 。 目 前 
广泛 使 用 的 原型 网 络 存 在 类 原型 表达 不 准确 、 不 完整 等 问题 。 为 了 克服 该 问题 ， 提 出 一 种 自 适 应 胶 震 网 络 (Adaptive 
Capsule Network, ACNet), ACNet 借助 胶 圭 网 络 的 归纳 能 力 生成 类 原型 ， 并 在 此 基础 上 对 动态 路 由 过 程 进行 评估 ， 
使 其 面 对 不 同样 本 能 自 适 应 调整 网 络 参数 。 同 时 ， 在 ACNet 中 引入 一 种 记忆 和 迭代 机 制 ， 帮 助 模型 快速 确定 类 表示 。 
在 小 样本 关系 数据 集 FewRel 上 进行 实验 验证 得 出 ，ACNet 能 够 有 效 处 理 小 样本 关系 抽取 任务 。 
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Abstract: The few-shot relationship extraction task is a hot issue in natural language processing. It aims to train the 
relationship extraction model using low-cost label data. The widely used prototype network has some problems, such as 
inaccurate and incomplete expression of class prototypes. This paper proposed an Adaptive Capsule Network (ACNet) to 
solve this problem. ACNet generates a class prototype with the inductive capability of the capsule network. On this basis, the 
dynamic routing process is evaluated so that it can adjust network parameters adaptively to different samples. At the same 
time, a memory iteration mechanism is introduced in ACNet to help the model determine the class representation quickly. 
Experiments on a few-shot relational dataset FewRel show that ACNet can handle few-shot relational extraction tasks. 

Key words: relationship extraction; few-shot; adaption; capsule network; dynamic routing 


ML) 的 概念 。ML 通常 将 小 样本 学 习 的 训练 过 程 分 解 为 若干 


0 引言 个 元 任务 , 元 任务 在 不 同 mini-batch 之 间 切 换 并 从 中 提取 一 
自然 语言 构成 的 文本 数据 是 当前 大 数据 的 重要 组 成 部 。 ” 些 可 迁移 的 知识 。 因 此 ，Few-shot 模型 只 需 使 用 少量 标记 样 
分 ， 在 文本 中 ， 如 人 名 、 地 名 等 具有 特殊 意义 的 词汇 被 称 为 ”本 可 以 对 新 类 别 进行 分 类 。 
实体 (Entity)， 实 体 之 间 通 常 存在 着 某 种 关系 ， 如 语法 关系 、 然而 ， 现 有 的 小 样本 学 习 方法 仍 面 临 许多 重要 问题 ， 包 
语义 关系 等 ， 所 谓 实体 关系 抽取 (Entity Relation Extraction), 括 强 先 验 方法 的 弱 移 植 性 中 、 复杂 的 任务 梯度 转移 加、 以 及 微 
就 是 指 在 实体 识别 的 基础 上 ， 对 实体 之 间 存 在 的 上 述 关 系 进 ” 调 目 标 问题 外, Snell AN Sung00 等 人 提出 的 方法 结合 了 非 参 
行 有 效 的 识别 和 判断 。 实 体 关系 抽取 是 正确 理解 文本 语义 的 数 方法 和 度量 学 习 ， 为 其 中 一 些 问 题 提 供 了 解决 方案 。 非 参 
关键 ， 也 是 文本 挖掘 和 信息 抽取 的 关键 基础 性 任务 ， 其 效果 数 方 法 的 优势 在 于 能 够 快速 吸收 新 样本 ， 且 模型 只 需 学 习 样 
对 文本 摘要 、 自 动 问答 卜 、 机 器 翻译 户 、 语 义 网 标注 、 知 识 图 本 的 表示 和 度量 ， 这 在 一 定 程度 上 避免 了 过 拟 合 。 但 同一 类 
谱 钻 等 自然 语言 处 理 下 游 任 务 有 着 重要 的 影响 ， 一 直 是 自然 ”中 的 实例 是 相互 关联 的 ,并 且 有 它们 的 统一 分 数 和 特定 分 数 。 


语言 处 理 (Natural Language Processing, NLP) 研 究 领 域 的 重要 在 之 前 的 研究 中 ， 类 级 表示 多 通过 简单 地 求 和 或 平均 支持 集 
研究 内 容 和 热点 研究 问题 。 样本 特征 来 计算 。 鉴 于 实例 样本 的 多 样 性 ， 这 种 方法 所 获得 
近年 来 ， 深 度 学 习 的 兴起 为 关系 抽取 任务 提供 了 新 的 解 的 类 级 表示 往往 会 受到 不 同形 式样 本 的 噪声 影响 。 且 现 有 小 
决 方案 ， 这 方法 多 采用 监督 学 习 方式 ， 其 效果 对 样本 数据 存 样本 学 习 算 法 大 多 不 会 对 支持 集 进 行 微调 。 当 增加 支持 集 的 
在 较 强 依赖 。 然 而 在 现实 场景 中 ， 数 据 量 往往 难以 满足 大 规 大 小 时 ,数据 扩充 带 来 的 改进 也 会 被 更 多 的 样本 级 噪声 削弱 。 


模 深度 网 络 训 练 的 需要 。 为 了 避免 数据 收集 带 来 的 人 力 和 时 2017 年 Sabour!!! A fE H T RENE, 该 网 络 具 有 解决 
间 成 本 ,一 些 学 者 提出 小 样本 学 习 (Few-Shot Learning,FSL) 类 表达 问题 的 潜力 ， 胶 融 网 络 将 样本 向 量 封装 为 “胶囊 ”， 并 
的 概念 ， 探 索 深 度 学 习 模 型 在 小 样本 条 件 下 泛 化 能 力 。 关 于 ”通过 非 参数 的 动态 路 由 算法 (Dynamic Routing，DR) 对 部 分 和 
小 样本 学 习 的 早期 研究 , 多 集中 于 数据 增强 外 和 正则 化 技术 ， 整体 之 间 的 内 在 空间 关系 进行 编码 。 类 似 的 ， 在 小 样本 任务 
通过 这 两 种 技术 来 缓解 由 数据 稀疏 引起 的 过 拟 合 问 题 。 有 学 中 , 将 样本 视 为 部 分 ， 类 视 为 整体 ， DR 算法 编码 的 类 表示 更 
者 受 人 类 学 习 过 程 的 启发 ， 提 出 了 元 学 习 [9(Meat-Learning， 代表 性 。 
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本 文 在 胶 融 网 络 的 基础 上 ， 提 出 一 种 自 适 应 胶 融 网 络 ”被 称 为 实体 ,每 个 实体 于 卫 中 标记 对 应 : "其 
(Adaptive Capsule Network, ACNet), 旨 在 从 少量 支持 集 样本 H, woow ALL wow 分别 对 应 于 实体 6 和 6。 实体 识别 和 


中 发 掘 样本 类 别 的 广义 类 表示 。 EREA H, DR 算法 的 路 。 标注 是 NLP 处 理 的 另 一 项 重要 任务 ， 在 此 不 做 讨论 ， 本 
由 次 数 决定 了 部 分 到 整体 的 层次 关系 ， 现 有 的 路 由 算法 文 在 实体 识别 的 基础 上 进一步 分 析 语 句 中 两 个 实体 之 间 
对 所 有 样本 使 用 相同 的 路 由 次 数 ， 面 对 复杂 的 实例 环境 的 关系 。 
x 以 有 效 做 到 类 归纳 ，ACNet 对 胶囊 网 络 中 的 动态 路 实体 间 的 联系 构成 了 一 个 关系 集合 ， 记 作 Rta, SCA 
算法 进行 改进 ， 提 出 一 种 自 适 应 归纳 算法 (Self-adaption  t 中 的 一 对 实体 Ale, 的 关系 可 用 三 元 组 (ee%) 表示， 其 中 
Inductive Algorithm, SIA), SIA 通过 评估 路 由 算法 在 实例 reR 为 目标 关系 集 的 一 个 元 素 。 实 体 关 系 抽取 任务 的 目的 是 
样本 上 的 执行 过 程 ， 为 不 同类 样本 分 配 相应 的 路 由 次 数 ， 从 自然 语言 文本 中 抽取 出 这 样 的 关系 三 元 组 ， 为 更 深入 的 文 
实现 路 由 参数 的 自 适 应 调整 。 同 时 , 为 了 降低 不 同样 本 所 本 挖掘 和 理解 商定 基础 。 以 句子 “London is the capital of the 
带 来 的 噪声 干扰 ，ACNet 引入 了 一 种 可 训练 的 记忆 模块 UK A, ees ii "和 “UK” 为 两 个 反映 地 名 的 实体 ， 两 
帮助 路 由 过 程 快速 确定 类 表示 ， 记 忆 模 块 中 包含 不 同类 ”个 实体 间 存 在 语义 关系 :“capital of ”*， <London ,Capital of, 
的 类 特征 , 这 些 类 级 表示 作为 模型 的 学 习 经 验 , 有 效 缓解 UK> 即 为 一 个 实体 关系 三 元 组 。 


了 样本 量 过 少 带 来 的 路 由 过 程 不 准确 问题 。 小 样本 实体 关系 抽取 任务 是 针对 某 些 任务 领域 关系 样本 
综 上 所 述 ， 本 文 主要 贡献 包括 : 数量 稀少 ， 无 法 开展 大 规模 模型 训练 的 情况 。 在 该 场景 下 ， 
a) 提出 一 种 自 适 应 胶 宫 网 络 。 该 网 络 将 记忆 保存 机 制 与 ”给 定 关 系 集合 R 和 只 包含 少量 样本 的 支持 集 S， 要 求 模型 能 


动态 路 由 算法 结合 ， 能 够 快速 适应 支持 集 样本 ， 并 在 小 样本 ” 够 准确 预测 查询 样本 语句 x 中 实体 对 e, Alle, 间 的 关系 。 其 中 
场景 中 有 效 归 纳 样本 类 表示 。 支持 集 S 和 查询 集 Q 均 通 过 对 数据 集 D 采样 获得 ， 即 在 数 

b) 提出 一 种 自 适 应 归纳 算法 。 该 算法 在 动态 路 由 的 基础 ” 据 集 D 中 随机 选择 C 个 类 别 ， ign 中 随机 选择 K 
上 引入 一 种 路 由 过 程 的 评估 机 制 ， 使 模型 能 够 针对 不 同样 本 ”个 样本 构成 支持 集 : 3S={sceh c=4.…C,k=1.…K 。 另 外 在 C 个 
自 适 应 的 分 配 路 由 参数 ， 缓 解 因 样 本 多 样 性 导致 的 类 特征 难 ” 类 别 的 其 余 样 本 中 随机 选择 R 个 样 Ra 
聚合 、 表 达 不 完善 等 问题 2={lsj4=L…R 。 这 种 构建 支持 集 与 查询 集 的 任务 方式 也 被 
将 本 文 方法 在 FewRel 数据 集 上 进行 实验 ， 实 验 结果 证 称 作 C-way K-shot。 在 小 样本 学 习 中 ， 支 持 集 中 的 实例 数量 


a 


明了 本 文 研究 方法 的 有 效 性 ， 对 小 样本 场景 下 的 关系 抽取 任 (BY C*K 个 ) 通 常 很 少 ， 关 系 分 类 模型 需要 在 支持 集 的 少数 示 
务 ， 具 有 较 强 的 指导 意义 和 应 用 价值 。 例 中 学 习 样 本 特征 ， 并 预测 查询 实例 x 的 关系 类 别 。 
1 ”问题 描述 2 ， 自 适 应 胶囊 网 络 模型 (ACNet) 
为 了 论述 上 的 便利 和 准确 ， 以 下 就 实体 关系 抽取 任务 给 本 文 提出 了 用 于 小 样本 关系 分 类 的 自 适 应 胶囊 网 络 模型 
出 形式 化 描述 。 (ACNet),， 模 型 共 包 含 基 类 数据 se CIFRE s 和 查询 集 s 
设 W={wj 名 和 5={6 六 分 别 为 单词 符号 集合 和 实体 标记 集 ”三 个 输入 ， 其 中 sf” 由 训练 集 Dran EK, Se 和 ss 以 c-way-k- 
合 ，W 上 的 文本 ft 可 视 作 W 中 元 素 构成 的 有 限 长 度 序列 : shot 任务 为 标准 在 D, 中 随机 操 取 获得 . ACNet 模型 四 个 模 
1=WW 在 文本 中 ， 具 有 特殊 语义 的 一 个 或 一 组 单词 符号 块 ， 有 具体 如 图 1 所 示 。 
基础 集 { sose 一 > = > M > > Ys 
预 4 
训 , 
Sik 一 人 > > > CLk 一 > —> 4k —> 
支持 52 人 一 > Š 一 > ek —> 自 适应 — e2 人 “一 > 查询 ee a — y 
i R i 归纳 模块 增强 模块 3 G 
= : 
Sek 一 > a 一 ”eck 一 > 一 > eck 一 > 
器 
查询 集 { Sy 一 > > € > 


图 1 自 适 应 胶 吉 网 络 (ACNeb 结 构 示 意图 
Fig. 1 Structure diagram of Adaptive Capsule Network (acnet) 

1) 编码 模块 : 采用 预 训 练 的 BERT USDA 5p EAS [cls] 和 [sep] 作 为 开头 和 结尾 的 标识 符号 , 并 使 用 [cls] 输 出 的 d 

St. SCRA sa 和 查询 集 ” 进行 编码 ， 分 别 得 到 基 类 向 量 。 维 向 量 作为 给 定 实 例 关系 语句 w 的 向 量 表 示 ， 整 个 过 程 可 以 

、 支 持 向 量 “* 和 查询 向 量 。 。 表示 为 e=E(w|9) ， 其 中 9 为 BERT 的 模型 参数 。 预 训练 的 


2) 自 适 应 归纳 模块 (Adaptive Induction Module, AIM): BERT 模型 提供 了 强大 的 上 下 文 相 关 句 子 表示 ， 可 用 于 各 种 
采用 自 适 应 归纳 算法 (SIA) 对 支持 集 向 量 se 进行 归纳 ,SIA 在 目标 任务 ， 并 且 适 用 于 小 样本 关系 分 类 。 
动态 路 由 算法 的 基础 上 ， 加 强 对 路 由 过 程 的 评估 ， 针 对 不 同 使 用 wiki 文本 对 BERT 模型 进行 预 训 练 , 为 了 能 够 适应 
的 支持 向 量 自 适 应 调整 路 由 参数 ， 经 过 多 次 路 由 友 代 ， 获 得 小 样本 关系 分 类 任务 ， 在 训练 集 Du 中 随机 取 Coase 个 类 别 的 
支持 集 的 嵌入 向 量 。* o ae pegi 用 于 对 BERT 编码 器 进行 微调 。 
3) 查询 增强 模块 (Query Enhancement Module, QEM): 对 于 每 个 输入 sh, 编码 器 Eye O 输出 d 维 向 量 e 。 同 时 
复 用 自 适应 归纳 算法 , 在 ew 的 基础 上 对 查询 向 量 。 ETR, AERE M slee ne ceca] , M 作为 记忆 和 矩阵 为 每 个 基 类 样本 保 
获得 包含 查询 信息 的 类 表示 e. ， 用 于 后 续 。 的 分 类 。 存 一 个 记忆 特征 向 量 ， 为 了 保证 记忆 特征 的 有 效 性 ， Es; |) 
4) 分 类 模块 :采用 余弦 相似 度量 计算 查询 向 量 。 与 类 表 和 M 都 将 在 模型 训练 过 程 中 进一步 调整 ， 有 具体 细节 将 在 2.2 
ZR e 的 匹配 分 数 ， 预 测 查询 向 量 类 别 。 PPAR 
2.1 编码 模块 2.2 自 适 应 归纳 模块 (Adaptive Induction Module, AIM) 
选择 预 训练 的 BERT 模型 作为 编码 工具 ， 其 模型 架构 是 AIM BÆRERE M 对 支持 集 进行 调整 ， 将 多 个 
基于 TransformerI9 的 多 层 双 向 编码 器 。 在 关系 语句 中 插入 记忆 特征 和 支持 向 量 输入 到 AIM 中 ， 经 过 自 适 应 归纳 算法 
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(SIM) 获 得 每 个 支持 向 量 的 舱 入 向 量 ，DR 算法 可 以 实现 多 向 
量 到 单一 向 量 归纳 的 功能 ，SIM 在 此 基础 上 改进 了 路 由 过 程 
的 评估 方法 ， 并 依照 其 评估 结果 自 适应 的 为 不 同样 本 分 配 路 
由 参数 ， 获 得 的 散 入 向 量 能 够 有 效 整合 记忆 特征 中 的 信息 ， 
适应 支持 集 的 能 力 更 强 。 

具体 地 ,支持 集中 的 实例 首先 被 BERT 编码 为 样本 
向 量 {ex ， 然 后 输入 到 AIM 中 处理 。 在 给 定 记 忆 和 矩阵 
M 和 支持 样本 向 量 “ 的 情况 下 ，AIM B AEH wE 
阵 M 来 调整 支持 向 量 ， 整 个 过 程 可 以 概括 为 : 
el = AIM(M,e.4) o 
在 胶囊 网 络 中 ， 存 在 1 和 1+1 WAREZ, RARES 
ALTERS 1 上 ， 通 过 动态 路 由 算法 将 多 个 低级 胶 宫 以 加 权 
和 的 方式 路 由 到 胶 融 层 1H1 上 ， 并 获得 高 级 胶囊 w ， 鉴 于 胶 
圳 网 络 部 分 到 整体 的 编码 特性 ， 在 小 样本 学 习 中 ， 将 低级 胶 
PEL AGE AS » 而 高 级 胶囊 代表 样本 类 别 特征 ,因此 在 本 文中 ， 
对 于 输入 AIM 的 每 个 meM FI ea 进行 标准 矩阵 转换 ， 并 应 
用 squash 函数 [3 进行 归 一 化 : 

m, = squash(W,m, + b;) (1) 


re 


ê., = squash We., +b;) (2) 

这 里 的 转换 权重 W, 和 参数 5 在 输入 中 共享 , 需要 在 网 络 

HJE, squash 函数 为 非 线性 压缩 函数 ， 目 的 是 在 保持 

向 量 方向 不 变 的 条 件 下 ， 将 其 长 度 压 缩 至 区 间 [0,1] 内 ， 函 数 
通 式 如 下 : 


lx x 


Fi 6) 
ERER, BIE 
p= Ye + Pi my, (4) 


cy AR AS BIBLE TAL HO LAL, Py =PO èa) , 
PCCst5 用 于 度量 基 类 类 特征 A, 和 支持 向 量 2. 间 的 相似 程 


squash(x) = 


面向 小 样本 关系 抽取 的 自 适 应 胶 才 网 络 


低级 胶 寺 的 加 权 和 计算 得 到 : 
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1-x xe[0,1) 
ky- 人 x21 (8) 
均值 漂移 (Mean Shift M7 是 一 种 基于 密度 梯度 上 升 的 非 
参数 方法 ， 可 用 于 最 小 化 NAS 函数 fw) 以 解决 KDE 问题 : 


' n Od (vj y) 
Vf (u) =La av hD (9) 
CHK (d (vj y) 
1 = ey EEO he me 


pol = 
l D FEO) 


BARRE 中 聚合 了 记忆 特征 的 信息 ,通过 取 平 均 的 方 
式 对 支持 向 量 & 进行 调整 : 


Ep 十 Vi 


Ex 生 了 (11) 
ci” 的 值 可 以 使 用 标准 梯度 下 降 进行 更 新 : 
cj =c} +a- (k(d(v;,m,)) + pi) (12) 


其 中 : a 为 步 长 。K(405,m)) YAS Ve) IBS BE TL A HELA iti, 
Pi Fy KAO mD 的 修正 量 ， 代 表 记 忆 特 征 向 量 mi 与 支持 向 量 
ex 的 相似 程度 , 相似 程度 越 高 对 应 的 记忆 特征 在 0; P AY EE H 
越 大 ， 反 之 则 会 削弱 不 相关 的 记忆 特征 占 比 。 通 过 估计 值 力 
修正 量 的 方式 更 新 胶囊 权重 ， 保 证 生成 高 级 胶 圳 ”时 能 够 
有 效 聚 合 记 忆 特 征 ， 并 在 此 基础 上 实现 对 支持 向 量 的 调整 。 
为 了 解决 路 由 算法 在 实例 级 样本 上 不 会 收敛 的 问题 ， 
SIA 可 以 根据 单个 实例 样本 NAS 取 值 自行 调整 路 由 迭代 次 
Bl, 详细 过 程 如 算法 1 所 示 : WR a) 代表 遍历 所 有 记忆 特征 
m 和 支持 向 量 % ， 并 在 步骤 b) 和 c) 分 别 对 其 进行 归 一 化 
WE, 步骤 e) 代表 采用 加 权 和 的 方式 计算 类 特征 六 的 初 值 ， 
算法 在 步骤 人 进入 路 由 迭代 和 循环， 步骤 代表 的 更 新 过 
T 具体 见 式 (6)~(10), 步骤 和 j) 表示 在 获得 最 新 的 ”后 ， 
路 由 权重 6% 和 支持 向 量 “* 的 调整 更 新 方式 ， 步 骤 k) 代表 


fan 


t= 


= 


度 ， 有 具体 如 式 (5) 所 示 。 


Cov(%,X2) 
PCCs = ———— 
” CaTa (6) 


HHH, Cov 为 协 方差 05。 和 om AP HAYA) BE on Al xo 的 标准 差 ， 
于 PCCs 的 值 分 布 在 [-1,H 区 间 内 ， 因 此 可 用 于 增强 或 惩罚 
路 | 参数 Cj o 


NAS 函数 的 取 值 计算 ， 步 又 1 为 判断 语句 ， 比 较 NAS 更 新 
前 后 的 差 值 与 阐 值 8 大 小 ， 若 INA5-Last_NAS|>5 ， 则 表明 
NAS 函数 不 满足 收敛 标准 ， 算 法 进入 步骤 0) 和 步骤 p) ,分 
别 对 修正 量 Po A NAS 进行 更 新 ,， 并 重新 返回 步骤 了 f) 进行 下 
一 轮 的 路 由 迭代 , 直至 |NA5-Last_NAS|K5，, BI NAS 已 具备 收 
敛 条 件 ， 退 出 步骤 了 f) 的 while 循环 ， 进 入 步骤 q) 输出 自 适 


在 传统 DR 算法 中 ， 路 由 次 数 r 的 大 小 决定 了 不 同 胶 圳 
层 之 间 的 层次 关系 ， 在 强 监督 环境 中 ， 网 络 在 开始 训练 时 往 
往 需 要 选取 合适 的 r 值 ， 并 将 其 应 用 在 所 有 样本 上 ， 但 在 小 
样本 RE 任务 中 ， 数 据 规模 不 足 且 关系 实例 多 样 复杂 ， 不 同 
样本 达到 收敛 要 求 的 路 由 次 数 也 不 相同 ， 固 定 的 + 值 难以 满 
足 任务 需要 。 因 此 ， 为 了 评估 路 由 过 程 在 小 样本 实例 上 的 性 
能 ， 并 实现 路 由 次 数 的 自 适 应 调整 ， 本 文 提出 一 种 自 适应 归 


纳 算法 (Self-adaption Inductive Algorithm，SIA) 来 解决 此 问题 。 


SIA 将 路 由 过 程 描述 成 最 小 化 负 一 致 性 分 数 (Negative 
Agreement Score, NAS) 的 优化 问题 : 
min f= -F opin) 


JE ©) 

NAS 的 目的 是 将 更 高 的 6 Ea EDRU AY h) 
对 ,但 鉴于 向 量 的 高 维特 征 ，NAS 函数 的 计算 一 直 是 一 个 开 
放 问 题 。 核 密度 估计 (Kernel Density Estimation, KDE) 是 一 种 
非 参 数 密 度 估计 方法 ， 不 需要 假设 一 致 对 是 从 参数 分 布 中 提 


取 的 ， 这 为 解决 NAS 问题 提供 了 可 能 。 通 过 KDE 将 式 (6) 转 
换 成 如 下 形式 : 
mip f= Tok) o 


其 中 : d 为 欧式 距离 ，k 为 Epanechnikov019g 核 函数 : 


IAHR A TALE e, OE ZEA 
算法 1 自 适 应 归纳 算法 (SIA) 
输入 : 超 参 数 & , p ;路 由 权重 44=1/n ;支持 向 量 ex 5 TZ E E 
M =[m,n,...,m, | o 

输出 ， 自 适应 嵌入 向 量 ex o 


a): for all m.e. do 


b): m, = squash(W,m, + b;) 
c): ê. = squash We. +b;) 
d): py = tanh(PCCs(ih,,6..)) 
e) : + =È (0 + pyh 


f): While true do 


g): cy < softmax(c;) 


> cyk' (dv; .1%,)) Ôu 


h): ye n x 
) SK (dv; ñ)) 
i): For all i: cy |c; +@-(k(d(v;,m,)) + py) 
j): For all k: bay S 
k): NAS =log(2 ,ck(d by,m)) 
1): If |NAS-—Last_NAS|<6 then 
m): break 


录用 定稿 张晓明 ， 等 : 
n): else 
0) For all i,k: pj =tach(PCCs(m,,é.,)) 
p): Last _ NAS < NAS 


q): Return & =v, 

2.3 查询 增强 模块 (QEM) 

为 了 避免 实例 多 样 性 所 带 来 的 噪声 干扰 ， 在 上 述 两 个 模 
块 获得 的 查询 向 量 。 以 及 嵌入 向 量 {eb 的 基础 上 ， 构 建 查 
询 增强 模块 .QE 的 是 在 嵌入 向 量 中 发 掘 与 查询 向 量 的 相 
似 部 分 ， 以 此 构造 包含 查询 信息 的 类 级 向 量 。 由 于 SIA 具有 
自 适 应 的 能 力 ， 可 以 增强 相似 的 侍 入 和 查询 向 量 ， 并 对 不 相 
关 的 向 量 权重 进行 削弱 。 因 此 ， 通 过 复 用 SIA 在 支持 向 量 的 
基础 上 对 查询 集 向 量 进行 适应 调整 ， 并 从 与 查询 集 更 加 相关 
的 嵌入 向 量 中 得 到 类 级 别 的 向 量 表 示 : 


e, = AIM({e 1 Waie) 


a < 


(13) 
2.4 相似 度 分 类 器 

在 最 后 的 分 类 阶段 ， 对 基 类 向 量 @ 和 查询 向 量 进行 分 
类 ， 获 得 所 有 类 别 的 概率 分 布 。 传 统 神经 网 络 分 类 器 是 在 提 
取 特 征 向 量 esRs 之 后 ， 使 用 内 积 w=erw 计算 每 个 类 别 
ke[ll,K*] 的 初始 得 分 , 其 中 wi 为 权重 向 量 , 然后 使 用 softmax 


r 函数 计算 特征 向 量 在 所 有 K 类 上 的 分 类 概率 。 然 而 ， 这 种 方 
6 法 不 再 适用 于 样本 中 包含 新 类 的 小 样本 学 习 。 本 文 使 用 余弦 
LO 相似 度 计算 原始 分 类 分 数 : 

CE Sk 二 ICOS(ei Wi) =T: W, (14) 
© Ep, gA 克 是 45 一 正则 化 向 量 ，7 是 可 学 习 的 参数 。 基 类 向 
© Eef Coe PIA LINDA A 

<P $, = sofimax(s, ) (15) 
©O 在 小 样本 关系 分 类 场景 中 ， 将 查询 向 量 。 和 类 表示 “ 统 
EN 一 输入 分 类 器 ， 得 到 小 样本 学 习 部 分 每 个 新 类 的 分 类 得 分 : 
N Sge =T*COS(C,,€,)=T +272. (1 6) 
= Sq = {5ye} (17) 
ms 查询 向 量 。 在 C 个 新 类 的 分 类 概率 为 

2 $, = sofimax(s,) (18) 
> 3 ”模型 学 习 过 程 

人 在 小 样本 关系 分 类 任务 中 ， 训 练 集 Drain 和 测试 集 De 
T 有 不 同 的 标签 空间 , 即 Rw RuD, 每 个 数据 集 的 样本 可 表 
O ” 示 为 sp,») 的 形式 ， 其 中 表 包 含 t 个 单词 的 关系 实例 语句 ， 


P= (Pi P) 表示 中 两 个 标注 实体 的 位 置 , 为 实例 语句 中 实体 对 
间 的 关系 类 别 标签 。 
ACNet 模型 在 训练 时 采用 Vinyals0 提 出 的 基于 元 任务 


的 训练 策略 。 在 该 策略 中 ， 小 样本 的 学 习 过 程 被 分 成 了 元 训 


D 


行 测试 ， 
进行 训练 : 


而 对 每 


个 元 


其 中 ，C 代表 Sr 
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练 和 元 测试 两 个 阶段 。 在 元 
多 独立 的 监督 任务 T( 即 元 任 
全 相同 。 每 个 TT 都 以 C-way-K-shot 任务 为 标 ; 
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| 练 阶段 ，ACNet 模型 将 面 对 许 
务 )， 不 同 元 任务 间 的 类 别 


ban 上 随机 构造 ， 包 括 支持 集 Sr 和 查询 集 O, 。 
本 输入 ACNet 模型 进行 训练 ， 并 使 用 Or 中 的 样本 对 模型 进 
ES T, RU PEIR RHEA 


é 


oie p 
ZL,O)=- 二 > 二 >》 v, log(3,) 
CRS 


， 在 训练 集 
将 S, 中 E 


(19) 


中 的 样本 类 别 ，R 为 Or 中 的 样本 数量 ， > 
实 标签 和 模型 预测 标签 。 在 元 测试 阶段 ， 


kt 有 不 


后 ， 能 够 更 好 地 处 理 任 务 之 间 
j 对 新 的 小 样本 任务 时 ， 


和 y 分 别 表示 样本 真 
测试 集 De 的 设置 与 训练 时 相同 。 测 试 集 与 训练 集合 
同 的 标签 空间 ， 因 此 ， 新 任务 中 的 样本 类 别 是 之 前 学 习 过 的 
任务 中 没有 出 现 的 ,ACNet 在 训练 过 程 中 不 断 学 习 新 的 任务 ， 
在 经 过 大 量 的 不 同 任务 训练 
的 不 同 并 忽略 特定 任务 的 特征 ， 在 和 

有 更 强 的 泛 化 能 力 。 


4 ”实验 
4.1 


使 用 
然后 通过 手工 去 


数据 集 、 评 估 指 标 
本 文 在 小 样本 关系 分 类 数据 集 FewRell191020 上 对 模型 进 
行 评估 。FewRel 数据 集 分 为 1.0 与 2.0 两 个 版 本 ，FewRell.0 
Wikipedia 作为 数据 源 ， 首 先 通过 远程 监督 方式 生成 ， 

噪声 数据 .最终 FewRel 1. 


除 


0 数据 集 包 含 100 


个 关系 ， 每 个 关系 有 
量 为 24.99， 共 有 124577 个 唯 


三 部 分 ， 其 中 64 个 关系 类 用 于 训练 ，16 个 


用 于 测试 。FewRel 2.0 34 


生物 医学 文献 数 


据 库 PubMed 
类 别 ， 每 个 关系 类 别 有 100 个 实例 ， 同 时 采 


700 个 实例 。 每 个 句子 
标记 。100 个 关系 类 被 分 为 


的 平均 token 数 


于 验证 和 20 个 


1 1.0 的 训练 集 ， 
作为 测试 集 


AM 
N 
4 


此 基础 上 增加 
包含 25 个 关系 


| SemEval-2010 


任务 820 作 为 验证 集 。 表 1 描述 了 FewRel 数据 集中 的 数据 


格式 ， 其 中 包括 关系 ID、 样 本 语句 中 包含 的 单词 (tokens)、 头 
尾 实体 及 其 位 置 的 标注 。 
实验 部 分 的 样本 设置 以 C-way-K-shot 任务 为 标准 ， 有 具体 


样本 案例 如 表 2 所 示 ， 鉴 于 篇 幅 有 限 仅 描述 2-way-1-shot PE 
色 字 体 代表 头 实体 ， 红 色 代 表 


本 实例 ， 其 中 蓝 


尾 实体 ， 训 练 


与 测试 阶段 的 样本 分 别 来 自 FewRel 1.0 训练 集 和 FewRel 2.0 
测试 集 , 本 文 主要 研究 4 种 小 样本 学 习 配 置 , 即 5-way-1-shot、 


5-way-5-shot, 10-way-1-shot, 
有 结果 均 为 10 次 训练 重复 的 平均 值 和 标 ; 


10-way-5-shot。 实 验 给 


出 的 所 


z, JEH 20000 


个 独立 样本 进行 测试 。 


表 1 FewRel 数据 集中 的 数据 格式 
Tab. 1 Data format in fewrel dataset 
key value 
实体 关系 ID P2094 
、 ["Sasakul", "turned", "pro", "in", "1991", "and", "captured", "the", "WBC", "and", "lineal", "flyweight", "titles", 
句 中 包含 的 单词 ; : ; 
"with", "a", "win", "over", "Yuri", "Arbachakov", "in", "1997", "."] 
头 实体 及 位 置 ["yuri Arbachakov", "Q542462", [文献 [17, 18]]] 
尾 实体 及 位 置 ["flyweight", "Q508484", [文献 [11]]] 
表 2 FewRel 数据 集 样 本 设置 案例 
Tab. 2 Fewrel dataset sample setting case 
阶段 数据 集 设置 案例 
(A)capital of Washington is the capital of the U.S.A. 
DN support set 
training phase (B)member of Leibniz was a member of the Prussian Academy of Sciences. 
query set (A)or(B) Newton served as the president of the Royal Society. 
(A)inheritance type of Aypohidrotic ectodermal dysplasia is the most common type and is usually transmitted as an x-linked recessive trait. 
support set 


test phase (B)occurs in 


query set (A)or(B) 


Acro-dermato-ungual-lacrimal-tooth syndrome is inherited as an autosomal dominant condition . 


Congenital fxi deficiency (hemophilia c) is a rare bleeding disorder that has been documented mostly in ashkenazi jews ." 


202204.00058v1 


inaXiv: 


ch 


录用 定稿 


4.2 ”实验 验证 
为 了 验证 提 


的 编码 模块 。 实 
测试 集 , 分 别 在 
验 ， 实 验 结果 如 


行 对 比 , 为 了 保证 实验 的 准确 性 , 使 用 
验 中 的 参数 均 保 持 一 致 ， 采 月 
5-way-k-shot 和 10-way-k-shot 任务 上 进 


张晓明 ， 等 : 


出 的 ACNet 模型 在 小 样本 RE 任务 
评估 不 同 模块 对 网 络 的 贡献 ,进行 以 下 三 组 对 比 实验 


1) 以 原型 网 络 (PROTO) 为 基线 模型 , S Arde H 


图 2 所 示 。 


数量 增长 两 个 模 


代表 ACNet 对 比 基 线 模型 的 提升 效果 。 由 图 可 
极端 小 样本 环境 下 ， 模 型 的 提升 效果 最 为 明显 ，5-way 任务 
生 能 提升 7.83%, 10-way 任务 | 


PROTO 通常 需要 一 定数 量 的 样本 来 确定 同类 样本 的 质心 ,并 


中 相 比 PROTO | 


图 2(a) 和 (b) 展 示 了 5-way 和 


10-way 


型 准确 率 的 变化 


的 模型 进 
BERT 替换 PROTO 中 
H FewRel 1.0 的 


面向 小 样本 关系 抽取 的 自 适应 胶 才 网 络 


FPF 的 有 效 


o 


上 提升 6.27%. 


行 实 


王 务 下 ， 随 着 shot 
线 ， 其 中 灰色 柱状 图 部 4 
知 , Æ K=1 的 


以 此 作为 该 类 的 原型 向 量 ， 样 本 数量 较 少 的 情况 下 类 原型 难 
以 准确 反映 类 别 特征 ,而 在 ACNet PIEBE Co 个 类 
原型 ， 模 型 在 训练 期 间 通 过 学 习 类 原型 的 共性 ， 实 现 样本 
部 分 到 整体 的 归纳 。 同 时 ， 记 忆 和 矩阵 会 在 训练 过 程 中 对 类 原 
型 向 量 进行 更 新 ， 因 此 随 着 样本 量 的 增加 ， 依 旧 存 在 一 定数 
量 的 性 能 提升 。 
100 30 
人 ns e 7 
90 er _— E- 20 
S 85 2 15 
< sof ae 
15 5 


1 


5 10 15 
shot 


(a)5-way-k-shot 任务 ACNet 和 PROTO 准确 率 变化 曲线 
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(b)10-way-k-shot 任务 ACNet 和 PROTO 准确 率 变 化 曲线 


在 FewRel 1.0 1 
3 记录 了 CapsN 
观察 到 两 种 配 


图 2 ACNet 和 PROTO 在 5--ay 和 10-way 任务 
Fig. 2 Accuracy (%)line chartofacnetand PROTO on 5 -way and 10-way 

2) 以 CapsNet 为 基线 模型 ,将 路 
1 练 集中 随机 抽取 5000 S 
et 在 两 种 路 由 次 数 设置 下 的 损失 
下 的 CapsNet 均 达 到 了 系统 级 收敛 。 图 4 


上 的 准确 率 (%) 折 线 
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过 程 的 不 可 控 风 险 。 


在 实例 样本 上 的 拟 合 标准 , 从 而 降低 路 
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迭代 下 CapsNet 的 loss 曲线 


图 3 两 种 不 同 路 


Fig.3 Loss curve of capsnet under two different routing iterations 
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图 4 实例 样本 在 不 同 路 由 次 数 下 的 NAS 曲线 


Fig.4 NAS curves of instance samples under different routing iterations 
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图 5 ACNet 在 不 同 关 系 类 下 路 由 次 数 
Fig.5 Routing iterations of acnet under different relationship classes 
3) 以 原型 网 络 为 基线 模型 ， 对 比 PROTO 增加 QEM 模 
块 前 后 和 ACNet 模型 删除 QEM 模块 前 后 的 性 能 变化 。 
PROTO 在 添加 QEM 模块 后 , 将 支持 集 样本 和 查询 样本 输入 
QEM 模块 中 ， 以 此 获得 每 个 类 别 的 类 特征 。 同 时 ，ACNet 在 
删除 QEM 后 采用 取 平 均 的 方式 获得 类 特征 ， 其 余部 分 均 保 


图 


以 


/x 


线 , 当 r=3 或 5 时 
的 路 由 迭代 次 数 虽 
改 敏 ， 但 却 难以 满足 模型 在 实例 级 
这 增加 了 路 由 过 程 的 不 确定 性 。 


NAS 函数 来 判断 


0 way-l shot 


EX 
设置 下 , 达到 NAS 收敛 标准 时 所 需 的 路 由 迭代 次 数 , 图 中 


的 


灰色 和 黑色 水 平 线 分 别 代表 3 次 和 5 次 的 迭代 次 数 设置 ， 可 
以 观察 到 不 同类 样本 所 需 的 迭代 次 数 并 不 相同 ， 最 高 需要 9 


AER ISAK, 


最 低 则 仅 需要 2 次 。 数 据 多 村 


准 的 差异 , ACNet 的 优势 在 于 针对 不 同样 本 的 NAS 分数， 


适应 调整 路 由 迭代 次 数 ， 在 保 记 


性 造成 了 收敛 标 


自 


持 不 变 。 实 验 使 用 5-way-1-shot 任务 配置 , 并 采用 FewRel 1.0 
测试 集 进 行 验证 。 

如 表 3 所 示 ,PROTO+QEM 对 比 PROTO 性 能 提升 4.21%， 
PROTO 通过 类 内 所 有 样本 向 量 的 加 和 平均 获得 类 特征 , 428 
内 样本 较 少 时 ， 其 向 量 分 布 存在 偏差 ， 无 法 准确 代表 样本 类 
别 ， 这 进一步 影响 了 查询 样本 的 分 类 ， 造 成 准确 率 下 降 。 
ACNet-QEM 对 比 ACNet 精度 下 降 2.07%， 这 证 明 QEM 具有 
比 PROTO 更 强 的 样本 归纳 能 力 ， 尽 管 PROTO+QEM 采 
QEM 模块 获取 类 特征 ， 但 ACNet-QEM 的 性 能 依旧 强 卫 
PROTO+QEM， 上 升幅 度 在 13% 左 右 ， 这 证 明 类 特征 的 编码 
方式 并 不 是 左右 性 能 的 唯一 指标 , 本 文 认 为 AIM 模块 对 结果 
的 影响 更 加 明显 ，AIM 则 在 使 用 记忆 算 阵 对 支持 集 向 量 进行 
调整 , 记忆 和 矩阵 的 引入 使 得 ACNet 在 不 同 元 任务 间 切 换 时 有 
效 保留 学 习 经 验 ,模块 自 适 应 的 特性 也 更 加 契合 小 样本 学 习 ， 


T 


也 


E 模 型 整体 收敛 的 同时 ， 满 足 


实验 证 明了 AIM 和 QEM 的 有 效 性 。 
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表 3 5-way-1-shot 任务 下 不 同 模型 的 准确 率 中 心 进行 距离 度量 ， 以 此 实现 少量 样本 下 的 分 类 任务 。 
Tab.3 Accuracy rate of different models under 5-way-1-shot task /% BERT-PAIR, Tianyu Gao APF 2019 年 提出 一 种 序 
序号 模型 5 way-1 shot 列 匹配 模型 ，BERT-PAIR 4447S 45 WH SE AS ITA SCE aad: 

1 PROTO 69.20 行 配对 ， 并 将 每 个 实例 对 连接 为 序列 输入 到 BERT 模型 中 ， 
2 PROTO+QEM 73.41 获得 表示 同类 实例 的 概率 。 
3 ACNet-QEM 86.44 DBIN, Ruiying Geng 等 人 P4 于 2020 年 提出 动态 内 存 引 
4 (AIM+QEM)ACNet 88.51 S28, DBIN 将 内 存 模块 和 动态 路 由 算法 相 结合 ， 模 型 通 

4.3 模型 比较 过 调整 和 聚合 两 个 步骤 在 少量 支持 样本 中 获得 类 别 表示 ， 最 
4.2 节 验 证 了 ACNet 中 不 同 模块 的 作用 ， 为 了 进一步 检 ， 后 与 查询 样本 比较 完成 关系 分 类 。 

E ACNet 的 整体 模型 表现 , 本 文 对 比 了 近 几 年 几 种 常用 的 小 实验 结果 如 表 4 所 示 ， 其 中 Meta-Net、GNN、SNAIL、 

样本 基准 模型 ， 其 中 包括 : PROTO(CNN) 等 网 络 模型 使 用 CNN 进行 编码 ， 输 入 关系 样 
Meta-Net, Munkhdalai T 等 人 中 于 2017 年 提出 元 网 络 模 ”本 语句 ， 并 将 每 个 单词 表示 转换 为 单词 拘 入 和 位 置 租 入 的 整 

型 ，Meta-Net 包含 基 学 习 器 和 带 有 记忆 模块 的 元 学 习 器 两 部 | 合 , 整个 关系 实例 表示 作为 输入 向 量 。 在 CNN 中 输入 向 量 经 


分 ， 通 过 两 部 分 的 交互 驱动 模型 理解 非 目 标 任务 空 间 , 减少 “过 卷 积 层 .最 大 池 化 层 和 非 线 性 激活 层 得 到 最 终 的 语句 嵌入 。 
模型 对 样本 数量 的 需求 。 除了 使 用 CNN 编码 结构 外 ，PROTO(BERT)、BERT-PAIR、 
GNN, Garcia V AIF 2017 年 提出 的 小 样本 图 卷 积 ”DMIN 以 及 本 文 提出 的 ACNet 模型 均 采 用 BERT 作为 编码 
网 络 模型 ,GNN 将 每 个 支持 实例 或 查询 实例 视 为 图 中 的 一 个 节点 ， 器 。 从 表 一 中 可 以 看 出 PROTO(BERT) 对 比 PROTO(CNN) 存 
并 将 其 标签 信息 嵌入 到 节点 表示 中 ， 依 靠 图 卷 积 将 基 类 别 的 分 类 ”在 显著 的 性 能 提升 ， 在 FewRel 1.0 数据 集 的 4 个 任务 上 平均 
器 信息 传递 给 新 类 别 的 分 类 器 中 ， 实 现 小 样本 的 标签 传播 。 提升 幅度 为 4.72%， 在 FewRel 2.0 数据 集 上 ， 平 均 的 性 能 提 
SNAIL, Mishra 等 人 [23] 于 2018 年 提出 的 一 种 元 学 习 框 升幅 度 为 3.09%， 这 证 明 BERT 编码 结构 所 生成 的 语句 特征 


I Nitty 
aor ir 


38, SNAIL 将 时 序 卷 积 网 络 和 注意 力 机 制 相 结合 ， 利 用 时 序 EMER, EA UO AES o 
卷 积 从 已 有 经 验 中 挑选 特定 信息 特征 ， 并 通过 注意 力 机 制 完 同时， 对 比 FewRel 1.0 数据 集 ， 所 有 的 模型 在 FewRel 
成 信息 聚合 ， 达 到 快速 学 习 小 样本 任务 的 目的 。 2.0 数据 集 上 都 存在 性 能 大 幅 降低 的 现象 , FewRel2.0 的 测试 


PROTO, Snell 等 人 09 于 2017 年 提出 原型 网 络 , PROTO 集 来 自生 物 医 学 领域 ， 这 说 明 小 样本 模型 难以 快速 适应 跨 领 
通过 平均 支持 样本 获得 样本 的 类 别 中心 ， 并 将 新 样本 与 类 别 域 样本 ， 模 型 的 经 验 迁 移 能 力 还 存在 较 大 的 提升 空间 。 


表 4 不 同 模型 在 四 个 小 样本 任务 设置 上 的 对 比 


Tab.4 Comparison of different models in four few-shot task settings 


模型 5-way-1-shot 5-way-5-shot 10-way-1-shot 10-way-5-shot 
On 1.0 On 2.0 On 1.0 On 2.0 On 1.0 On 2.0 On 1.0 On 2.0 

Meta-Net (CNN) 64.46 - 80.57 - 53.96 - 69.23 - 
GNN(CNN) 66.23 27.94 81.28 29.33 46.27 16.44 64.02 18.26 
SNAIL(CNN) 66.79 26.22 79.04 30.28 45.73 16.21 68.33 19.36 
PROTO(CNN) 74.52 35.09 88.40 49.37 62.38 22.98 80.45 35.22 
PROTO(BERT) 80.68 40.12 89.60 51.50 71.48 26.45 82.89 36.93 
DMIN 85.14 49.62 92.37 53.76 76.56 40.78 86.75 47.49 
BERT-PAIR 88.32 56.25 93.22 67.44 80.63 43.64 87.02 53.17 
ACNet 88.51 58.44 93.49 66.53 81.22 45.74 87.32 52.24 

在 FewRel 1.0 数据 集 上 , 本 文 提出 的 ACNet 模型 优 于 示 ， 并 通过 自 适应 归纳 算法 完成 对 支持 集 向 量 自 适 应 调整 ， 


前 最 优 的 BERT-PAIR 模型 , 在 FewRel 2.0 的 两 种 one-shot £ 使 模型 能 够 发 现 新 的 未 知 类 。 在 FewRel 数据 集 上 ， 与 当前 
务 上 ,对 比 BERTPAIR 也 分 别 取 得 了 2.19% 和 2.1% 的 提升 ， 五 个 代表 性 模型 相 比 ， 在 FewRel 1.0 的 4 中 小 样本 任务 上 取 
而 在 其 他 的 两 种 5-shot 任务 上 ，ACNet 也 达到 了 与 BERT- 得 了 最 好 的 结果 ， 而 在 FewRel 2.0 的 两 种 10-way 任务 上 
PAIR 相似 的 性 能 。BERT-PAIR 是 一 种 基于 匹配 的 小 样本 方 有 与 目前 最 优 模型 BEER-PAIR 的 相似 性 能 。 目 前 ACNet 还 
法 ， 通 过 计算 查询 集 与 支持 集 的 匹配 程度 完成 分 类 ， 但 鉴于 企 在 模型 结构 复杂 ， 训 练 时 间 长 等 问题 ， 在 未 来 的 工作 中 ， 
样本 的 特征 多 样 性 ， 同 类 样本 的 分 布 差异 较 大 时 会 导致 模型 ” 本文 将 进一步 研究 模型 规模 对 小 样本 关系 抽取 任务 的 影响 ， 


性 能 下 降 , 而 ACNet 对 支持 集 样本 采用 先 调整 后 聚合 的 方式 ， ”探索 精简 模型 结构 的 可 能 。 
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